Μετατρέπουμε τα tweets σε μικρά γράμματα

Αφαιρούμε όλους τους μη ελληνικούς χαρακτήρες από τα tweets.

Αφαιρούμε τους τόνους καθώς και τα διαλυτικά από τα tweets. Τα διαλυτικά είναι σπάνια στην ελληνική γλώσσα, ωστόσο μια πολύ συχνή λέξη στα δεδομένα είναι η λέξη κορονοϊός η οποία συναντάται πολύ συχνά στα δεδομένα επομένως είναι απαραίτητο να αφαιρεθεί.

Αφαιρούμε όλα τα links από τα tweets.

Αφαιρούμε όλα τα σημεία στήξης από τα δεδομένα

Στη στήλη Location υπάρχουν πολλές κενές εγγραφές. Τις αντικαθηστούμε με 'prefer not to say' προκειμένου να σβήσουμε στη συνέχεια τις κενές εγγραφές από τη στήλη Tweet. Aφαιρούμε τη συνέχεια τα επαναλαμβανόμενα tweets καθώς και τις κενές εγγραφές

Επιβεβαιώνουμε την αλλαγή

Βλέπουμε αν υπάρχουν τυχόν υπολοιπόμενες κενές εγγραφές στη στήλη Τweet

Μετράμε το μέσο μάκρος των Tweets μετά την αφαίρεση των links και των mentions.

Bλέπουμε τα στατιστικά στοιχεία του μάκρους των tweets.

Removing Stopwords

Είναι πολύ σημαντικό να αφαιρέσουμε τις stopwords γιατί αποτελούν τις λέξεις που επαναλαμβάνονται συνεχώς και δεν δίνουν κάποιο νόημα στη φράση. Ενημερώνουμε το πακέτο της nltk με λέξεις που εντοπίστηκαν στα δεδομένα μας και θα ήταν καλό να αφαιρεθούν.

Προκειμένου να βρούμε τις πιο σηνυθισμένες λέξεις που εντοπίζονται στα tweets θα χρησιμοποιήσουμε το πακέτο collections από τη βιβλιοθήκη Counter. Μέσω της συνάρτησης most_common() μπορούμε να εντοπίσουμε τις πιο σηνυθισμένες λέξεις στα δεδομένα μας, δηλαδή στη μεταβλητή word_list που δημιουργήθηκε. Θα μετατρέψουμε αυτές τις λέξεις σε ένα νέο αρχείο δεδομένων.

Δημιουργούμε ένα καινούργιο dataFrame με στήλες την λέξη και τη συχνότητα της λέξης.